【CVPR】3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention
3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention
分享人:李文豪
研究方向:三维人体姿态估计
论文题目:3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention
论文作者:Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, Ting Yao
作者单位:合肥工业大学、中国科学技术大学
论文摘要:最近基于Transformer的解决方案在3D人体姿势估计方面取得了巨大成功。然而,为了计算关节间亲和力矩阵,计算成本随着关节数量的增加而呈二次方增长。这种缺点尤其是对于视频序列的人体姿势估计变得更加严重,这需要跨越整个视频的时空相关性。在本文中,作者通过将相关学习分解为空间和时间来解决这个问题,并提出了一种新颖的时空交叉注意力(STC)块。从技术上讲,STC首先将其输入特征沿通道维度均匀地分割成两个分区,然后分别对每个分区执行空间和时间注意力。然后,STC通过连接注意力层的输出,同时对同一帧中的关节和同一轨迹中的关节之间的相互作用进行建模。在此基础上,作者通过堆叠多个STC块来设计STCFormer,并进一步将新的结构增强位置嵌入(SPE)集成到STCFormer中以考虑人体结构。嵌入函数由两个部分组成:围绕相邻关节的时空卷积以捕获局部结构,以及部分感知嵌入以指示每个关节属于哪个部分。在Human3.6M和MPI-INF-3DHP基准上进行了大量实验,与最优方法相比取得了更好的结果。更值得注意的是,STCFormer实现了迄今为止已发布的最佳性能:在具有挑战性的Human3.6M数据集上实现了40.5mm的P1误差。
原文链接: